Policy Split: Exploración de modo dual en RL para LLM Descubre cómo Policy Split mejora la exploración dual en LLMs con regularización de entropía para mayor precisión y creatividad. 2026-06-04 · 2 min